객체 탐지 모델의 성능 상충 관계(Trade-off) 및 최적 선택
1. ’최적 모델’의 재정의
1.1 연구의 배경: YOLO 패러독스와 모델 선택의 현실
객체 탐지(Object Detection) 기술은 컴퓨터 비전 분야의 핵심 과제로, 자율주행, 보안 감시, 의료 영상 분석 등 다양한 산업 분야에서 혁신을 주도하고 있다. 수많은 객체 탐지 모델이 제안되었으나, 그중에서도 YOLO(You Only Look Once) 계열 모델은 독보적인 인지도와 사용률을 자랑한다. YOLO의 이러한 폭발적인 대중화는 단순히 기술적 성능만으로 설명하기 어려운 복합적인 요인에 기인한다. 초기 YOLO 모델은 ’You Only Look Once’라는 이름에 걸맞게, 이미지 전체를 단 한 번의 신경망 순전파(forward pass)로 처리하여 객체를 탐지하는 혁신적인 접근 방식을 제시했다. 이는 당시 주류였던 2-stage detector들에 비해 압도적인 처리 속도를 가능하게 했으며 1, 실시간 애플리케이션이라는 새로운 시장을 개척하는 기폭제가 되었다.3
그러나 YOLO의 성공 요인은 속도에만 국한되지 않는다. 후속 버전들은 지속적인 개선을 통해 경쟁 모델 대비 우수한 정확도를 달성했으며 3, 특히 새로운 도메인에 대한 뛰어난 일반화(generalization) 성능을 보여주었다.5 여기에 결정적인 역할을 한 것은 오픈소스 생태계의 힘이다.5 Joseph Redmon이 개발한 초기 Darknet 프레임워크는 다소 전문적인 지식을 요구했으나, Glenn Jocher가 PyTorch를 기반으로 개발한 YOLOv5는 개발자 친화적인 환경을 제공하며 진입 장벽을 극적으로 낮추었다.6 Ultralytics는 이를 계승하여 YOLOv8과 같은 후속 모델들을 지속적으로 개발하고, 방대한 문서와 활발한 커뮤니티를 통해 강력한 개발 생태계를 구축했다.8 이처럼 YOLO의 성공은 기술적 우수성과 더불어, 개발자 경험(Developer Experience)과 커뮤니티라는 사회적 동학이 결합된 결과물이다. 이는 최고의 기술이 항상 시장을 지배하는 것이 아니라, 가장 접근하기 쉽고 활용하기 용이한 기술 생태계가 승리할 수 있음을 보여주는 중요한 사례이다. 모델 선택 과정에서 벤치마크 점수만큼이나 커뮤니티의 성숙도, 유지보수의 용이성, 그리고 개발팀의 기술 스택과의 호환성 같은 비기능적 요소를 고려해야 하는 이유가 여기에 있다.
이러한 대중적 인기와 접근성은 역설적으로 ‘묻지마’ 식의 무분별한 적용이라는 부작용을 낳고 있다. 많은 프로젝트에서 YOLO가 가진 ’속도 중심’이라는 핵심 설계 철학에 대한 깊은 이해 없이, 단지 유명하고 사용하기 편하다는 이유만으로 모델을 선택하는 경향이 나타난다. 이러한 결정은 프로젝트 초기에는 빠른 프로토타이핑이라는 장점을 제공할 수 있다. 하지만, 의료 영상 분석과 같이 극도의 정확성이 요구되는 애플리케이션에 YOLO를 적용할 경우, 결국 성능 한계에 부딪혀 시스템을 재설계해야 하는 상황에 직면하게 된다. 이는 초기에 시간을 절약한 대가로 미래에 더 큰 비용을 지불하게 되는 ’기술 부채(Technical Debt)’를 쌓는 것과 같다.9 이 현상은 모델 선택이 단순히 최신 유행을 따르거나 벤치마크 순위를 비교하는 행위가 아니라, 해결하고자 하는 문제의 본질적 요구사항과 모델의 근본적인 설계 철학을 일치시키는 정밀한 엔지니어링 과정이어야 함을 명백히 보여준다.
1.2 ’좋은 모델’에 대한 고찰: 절대성에서 적합성으로
’가장 좋은 객체 탐지 모델은 무엇인가?’라는 질문은 그 자체로 잘못된 전제에서 출발한다. 이는 모든 문제에 대해 보편적으로 우월한 단일 모델이 존재한다는 가정에 기반하지만, 기술적, 철학적 관점에서 이러한 가정은 성립하지 않는다.
기술적 관점에서, 머신러닝 분야의 ‘No Free Lunch’ 정리는 모든 문제 영역에 걸쳐 다른 모든 알고리즘을 능가하는 단 하나의 최적 알고리즘은 존재하지 않음을 수학적으로 증명한다. 객체 탐지 모델의 세계에도 이 원칙은 동일하게 적용된다. 모델의 성능은 ‘정확도(accuracy)’, ‘속도(speed)’, ‘모델 크기(model size)’, ‘연산량(FLOPs)’ 등 다차원적인 지표로 평가되는데, 이들 지표는 서로 상충 관계(trade-off)에 있다.11 예를 들어, 정확도를 높이기 위해 모델의 깊이를 늘리고 더 많은 파라미터를 사용하면 필연적으로 연산량이 증가하고 속도는 저하된다.14 반대로, 속도를 극대화하기 위해 모델을 경량화하면 정확도에서 손해를 볼 수밖에 없다. 따라서 모든 지표를 동시에 최적화하는 ’절대적으로 좋은 모델’은 원리적으로 존재할 수 없으며, 오직 주어진 문제의 제약 조건 하에서 최적의 균형점을 찾는 ’상황에 적합한 모델’만이 존재할 뿐이다.16
철학적 관점에서, 모델은 그 자체로 목적이 아니라 특정 문제를 해결하기 위한 도구(tool)이다. 훌륭한 목수가 모든 작업에 단 하나의 망치만을 고집하지 않듯이, 훌륭한 엔지니어는 문제의 특성에 맞는 최적의 도구를 선택해야 한다. 따라서 모델에 대한 평가는 ’얼마나 성능이 뛰어난가’라는 절대적 기준이 아니라, ’해결하려는 문제의 요구사항을 얼마나 충실히 만족시키는가’라는 목적론적 관점에서 이루어져야 한다.9 예를 들어, 생명과 직결될 수 있는 자율주행차의 교통 표지판 인식 시스템은 단 하나의 오탐지나 미탐지도 허용하기 어렵기 때문에, 99% 이상의 극도로 높은 정확도를 요구하며 이를 위해 처리 속도의 희생을 감수할 수 있다.9 반면, 전자상거래 사이트에서 사용자에게 상품을 추천하는 모델은 일부 부정확한 추천을 하더라도 시스템 전체에 치명적인 영향을 주지 않으므로, 높은 정확도보다는 빠른 응답 속도와 신속한 모델 배포가 더 중요한 가치가 될 수 있다.19
결론적으로, 성공적인 모델 선택의 여정은 벤치마크 테이블의 최상단에서 시작하는 것이 아니라, 해결하고자 하는 문제에 대한 깊이 있는 성찰에서 출발해야 한다. “우리 시스템에서 허용 가능한 최대 지연 시간은 몇 밀리초(ms)인가?”, “오탐지 한 건이 비즈니스에 미치는 금전적 손실은 얼마인가?”, “미탐지 한 건이 야기할 수 있는 최악의 시나리오는 무엇인가?“와 같은 근본적인 질문에 답하는 과정이야말로, 수많은 모델의 홍수 속에서 올바른 방향을 제시하는 등대가 될 것이다. 본 연구는 이러한 문제의식 하에, 단편적인 모델 비교를 넘어 각 모델의 성능 상충 관계를 심층적으로 분석하고, 이를 바탕으로 다양한 산업 현장의 요구사항에 맞는 최적의 모델을 선택할 수 있는 체계적인 의사결정 프레임워크를 제시하는 것을 목표로 한다.
2. 핵심 아키텍처 심층 분석: 속도와 정확도의 근원
객체 탐지 모델의 ’속도’와 ’정확도’라는 두 핵심 성능 지표의 상충 관계는 우연의 산물이 아니다. 이는 모델이 이미지를 해석하고 객체를 찾아내는 근본적인 방식, 즉 아키텍처의 설계 철학에서 비롯된다. 객체 탐지 모델은 크게 1-stage detector와 2-stage detector라는 두 가지 계보로 나눌 수 있으며, 이들의 구조적 차이가 어떻게 성능 특성으로 직결되는지를 이해하는 것은 최적 모델 선택의 첫걸음이다.
2.1 1-Stage vs. 2-Stage: 구조가 성능을 결정한다
1-stage와 2-stage detector의 구분은 단순히 처리 단계의 수 차이를 넘어, 객체 탐지라는 문제를 어떻게 정의하고 접근하는지에 대한 철학적 차이를 반영한다. 1-stage detector가 이미지 전체를 한 번에 보고 “여기에 무엇이 있는가?“라고 묻는 ‘전역적 추론(global inference)’ 방식이라면, 2-stage detector는 먼저 “객체가 있을 만한 곳은 어디인가?“를 탐색한 후, 해당 지역에 대해 “이곳에 있는 것은 무엇인가?“를 정밀하게 판단하는 ‘지역적 정밀화(local refinement)’ 방식을 따른다. 이는 마치 숲 전체를 빠르게 훑어보며 동물의 존재 유무를 파악하는 것과, 동물의 발자국이 있을 법한 곳을 먼저 찾은 뒤 그 주변을 집중적으로 탐색하는 것의 차이와 같다.
2.1.1 YOLO 계열 (1-Stage Detector) 분석
YOLO, SSD(Single Shot MultiBox Detector) 등으로 대표되는 1-stage detector는 객체 탐지를 이미지 전체 픽셀에 대한 단일 회귀(regression) 및 분류 문제로 재정의한다.4 YOLO의 경우, 입력 이미지를 S×S 크기의 그리드(grid)로 분할하고, 각 그리드 셀이 자신에게 속한 객체의 중심점을 예측하도록 학습된다. 동시에 각 그리드 셀은 미리 정의된 형태의 여러 앵커 박스(anchor box)를 기준으로 바운딩 박스의 위치(좌표, 너비, 높이)와 신뢰도 점수(confidence score), 그리고 각 클래스에 대한 확률을 직접 예측한다.21
이러한 구조의 가장 큰 장점은 ’속도’이다. 별도의 후보 영역 제안 단계 없이, 단 한 번의 신경망 연산(single pass)을 통해 모든 예측을 수행하므로 파이프라인이 극도로 단순하고 효율적이다.20 이로 인해 1-stage detector는 실시간 영상 처리나 자율주행차, 드론과 같이 즉각적인 반응이 필수적인 애플리케이션에 매우 적합하다.1
하지만 이러한 속도는 정확도, 특히 위치 정확도(localization accuracy) 측면에서의 일부 희생을 대가로 한다. 그리드와 앵커 박스라는 고정된 공간 구조에 의존하기 때문에, 객체의 크기나 종횡비가 미리 정의된 앵커와 크게 다르거나, 여러 개의 작은 객체들이 하나의 그리드 셀 안에 밀집해 있는 경우 정확한 탐지에 어려움을 겪는다.23 전체 이미지의 맥락을 한 번에 고려하는 전역적 추론 방식은 빠르지만, 이미지 내의 작은 디테일이나 복잡하게 겹쳐진 객체들의 관계를 정밀하게 분해하는 데에는 한계가 있기 때문이다.
2.1.2 Faster R-CNN 계열 (2-Stage Detector) 분석
R-CNN 계열로 대표되는 2-stage detector는 ‘Divide and Conquer(분할 정복)’ 전략을 통해 정확도를 극대화한다.20 이 접근법은 탐지 과정을 두 개의 명확한 단계로 분리한다.
- 1단계: 영역 제안 네트워크 (Region Proposal Network, RPN): 이 단계의 유일한 목표는 이미지 내에서 객체가 ‘존재할 가능성이 높은’ 후보 영역(region proposal)을 최대한 빠르고 정확하게 찾아내는 것이다. RPN은 백본 네트워크(backbone network)에서 추출된 특징 맵(feature map) 위를 슬라이딩하며, 각 위치에서 다양한 크기와 종횡비의 앵커 박스를 기준으로 ’객체인지 아닌지(objectness score)’와 대략적인 위치를 예측한다.22 이 과정을 통해 수천 개의 고품질 후보 영역이 생성되며, 이는 불필요한 배경 영역에 대한 계산을 생략하고 후속 단계가 유망한 지역에만 집중할 수 있도록 한다.22
- 2단계: 분류 및 위치 미세 조정 (Classification & Refinement): RPN이 제안한 후보 영역들은 RoI(Region of Interest) Pooling 또는 RoI Align과 같은 기법을 통해 고정된 크기의 특징 벡터로 변환된 후, 별도의 네트워크 헤드(head)로 전달된다. 이 헤드는 각 후보 영역에 대해 정밀한 클래스 분류(예: ‘사람’, ‘자동차’)를 수행하고, 동시에 바운딩 박스의 위치를 더욱 정확하게 미세 조정(refinement)하는 역할을 한다.22
이처럼 두 단계에 걸친 지역적 정밀화 과정은 2-stage detector가 높은 정확도를 달성하는 핵심 비결이다. 특히, 후보 영역에 계산 자원을 집중함으로써 작은 객체나 서로 겹쳐 있는 객체들을 탐지하는 데 강점을 보인다.28 그러나 이 복잡한 파이프라인은 본질적으로 1-stage detector에 비해 더 많은 연산을 요구하며, 이는 더 느린 추론 속도로 이어진다.17 따라서 2-stage detector는 처리 시간보다 단 하나의 오류도 치명적일 수 있는 의료 영상 분석이나 고정밀 산업 검사 등에서 그 가치를 발휘한다.
2.2 YOLO의 진화: 속도-정확도 곡선 위의 여정
YOLO 계열 모델의 발전사는 1-stage detector가 ’속도’라는 태생적 장점을 유지하면서 ’정확도’라는 약점을 극복하기 위해 어떻게 진화해왔는지를 보여주는 압축적인 역사이다. 이는 속도-정확도 상충 관계 곡선 상에서 단순히 한 지점을 개선하는 것을 넘어, 곡선 자체를 더 효율적인 방향(더 적은 연산으로 더 높은 정확도)으로 밀어 올리려는 끊임없는 노력의 과정이었다. 초기에는 ’정확도 희생 최소화’에 가까웠던 전략이, 점차 2-stage detector와 정면으로 경쟁하는 ’적극적인 정확도 향상’으로 전환되는 양상을 보인다.
-
YOLOv3 (2018): 초기 YOLO 버전의 가장 큰 약점 중 하나는 작은 객체 탐지 성능이었다. YOLOv3는 이를 개선하기 위해 당시 2-stage detector에서 주로 사용되던 FPN(Feature Pyramid Network)의 개념을 도입했다. 백본 네트워크인 Darknet-53의 서로 다른 깊이에서 추출된 세 가지 스케일(scale)의 특징 맵을 사용하여 예측을 수행함으로써, 다양한 크기의 객체에 더 효과적으로 대응하고자 했다.6 이는 YOLO가 속도를 일부 희생하더라도 정확도를 보강하려는 명확한 전략적 변화를 보여준 첫 번째 주요 시도였다.
-
YOLOv5 (2020): YOLOv5의 가장 큰 변화는 기술 자체보다 생태계에 있었다. 기존의 Darknet 프레임워크에서 벗어나 대중적인 PyTorch로 구현되면서 개발자 접근성을 극적으로 향상시켰다.6 아키텍처 측면에서는 CSP(Cross Stage Partial) 개념을 도입한 CSPDarknet을 백본으로, PANet(Path Aggregation Network)을 넥(neck) 구조로 채택하여 특징 추출과 융합의 효율성을 높였다. 이를 통해 연산량을 크게 늘리지 않으면서도 특징 표현 능력을 강화하여, 속도 저하를 최소화하며 정확도를 향상시키는, 즉 속도-정확도 곡선 상에서 더 우월한 ‘파레토 최적(Pareto optimal)’ 지점으로 이동하는 것을 목표로 했다.6
-
YOLOv8 (2023): YOLOv8은 한 단계 더 나아가 아키텍처의 근본적인 변화를 시도했다. 가장 큰 특징은 앵커 박스를 사용하지 않는 ‘Anchor-Free’ 설계의 도입이다.8 이는 데이터셋에 따라 앵커 박스 크기와 비율을 수동으로 튜닝해야 했던 번거로움을 없애고, 모델이 객체의 형태에 더 유연하게 적응하도록 하여 일반화 성능을 높였다. 또한, 기존의 C3 모듈을 개선한 C2f 모듈을 통해 더 효율적인 특징 융합을 구현했다.32 YOLOv8의 또 다른 중요한 기여는 Nano(n), Small(s), Medium(m), Large(l), Extra Large(x) 등 다양한 크기의 모델을 체계적으로 제공한 것이다.33 이는 사용자가 자신의 하드웨어 제약과 성능 요구사항에 맞춰 속도와 정확도 사이의 특정 트레이드오프 지점을 명시적으로 선택할 수 있게 함으로써, ’하나의 모델’이 아닌 ’하나의 프레임워크’로서 YOLO의 위상을 공고히 했다.
yolov8x와 같은 대형 모델은 더 이상 ’단순히 빠른 모델’이 아니라 ’상당히 정확하면서도 여전히 빠른 모델’을 지향하며, 1-stage와 2-stage의 경계를 허물고 있음을 보여준다.34
- YOLOv9 (2024): YOLOv9은 더 근본적인 문제에 접근했다. 심층 신경망에서 정보가 레이어를 통과하며 손실되는 ‘정보 병목(Information Bottleneck)’ 현상이 모델의 성능을 제한한다는 점에 주목했다. 이를 해결하기 위해 PGI(Programmable Gradient Information)라는 새로운 개념을 제안했다.35 PGI는 보조적인 가역 분기(reversible branch)를 두어 주 네트워크가 깊은 레이어까지 정보 손실 없이 중요한 특징을 학습할 수 있도록 돕는다. 이는 더 적은 파라미터와 연산량으로도 기존의 더 큰 모델과 동등하거나 그 이상의 성능을 달성할 수 있게 하는 것을 목표로 한다.36 즉, YOLOv9의 혁신은 속도-정확도 곡선 위의 한 점을 옮기는 것이 아니라, 곡선 자체를 근본적으로 더 효율적인 영역으로 밀어 올리려는 시도라는 점에서 그 의의가 크다.
2.3 정량적 성능 벤치마크: Pareto Front 분석
아키텍처의 이론적 차이를 넘어 실제 성능을 객관적으로 비교하기 위해서는 표준화된 데이터셋과 지표를 사용한 정량적 벤치마킹이 필수적이다. 이를 위해 가장 널리 사용되는 MS COCO 데이터셋을 기준으로, 주요 객체 탐지 모델들의 성능을 ’정확도’와 ’속도’라는 두 축으로 분석한다.37
아래 표는 주요 모델들의 핵심 성능 지표를 요약한 것이다. 정확도 지표로는 IoU(Intersection over Union) 임계값을 0.5부터 0.95까지 변화시키며 평균을 낸 mAP(mean Average Precision)와, 상대적으로 관대한 기준인 mAP@.5를 사용한다. 속도 지표로는 단일 이미지 추론에 소요되는 시간인 Latency(ms)와 초당 처리 프레임 수인 FPS를 사용한다. 모델의 복잡도를 나타내는 파라미터 수(Parameters)와 연산량(FLOPs)도 함께 제시하여 다각적인 비교가 가능하도록 한다.
표 1: COCO val2017 데이터셋 기준 주요 객체 탐지 모델 성능 지표
| 모델 (Model) | 백본 (Backbone) | mAP@[.5:.95] | mAP@.5 | Latency (ms, T4 GPU) | FPS (T4 GPU) | Parameters (M) | FLOPs (G) @640px |
|---|---|---|---|---|---|---|---|
| YOLOv8n | CSPDarknet-based | 37.3 | 53.5 | 2.1 | 476 | 3.2 | 8.7 |
| YOLOv8s | CSPDarknet-based | 44.9 | 62.6 | 2.8 | 357 | 11.2 | 28.6 |
| YOLOv8m | CSPDarknet-based | 50.2 | 67.2 | 5.2 | 192 | 25.9 | 78.9 |
| YOLOv8l | CSPDarknet-based | 52.9 | 69.4 | 7.6 | 132 | 43.7 | 165.2 |
| YOLOv8x | CSPDarknet-based | 53.9 | 70.2 | 12.5 | 80 | 68.2 | 257.8 |
| Faster R-CNN | ResNet-50 FPN | 41.0 | 62.0 | 54.0 | 18 | 41.0 | 180.0 |
| SSD300 | VGG16 | 23.2 | 41.2 | 10.5 | 95 | 26.3 | 35.2 |
| SSD512 | VGG16 | 26.8 | 46.5 | 15.4 | 65 | 26.3 | 99.5 |
| DETR | ResNet-50 | 42.0 | 62.4 | 35.7 | 28 | 41.0 | 86.0 |
| RT-DETR-L | HGNetV2 | 53.0 | - | 9.3 | 108 | 32.0 | 110.0 |
주: Latency 및 FPS는 배치 크기 1, 특정 하드웨어(NVIDIA T4 GPU) 및 소프트웨어 환경에서 측정된 값으로, 실제 환경에서는 달라질 수 있음. 데이터는 8 등 다수 출처의 벤치마크 결과를 종합하여 재구성함.
이러한 수치들을 단순히 나열하는 것만으로는 모델 간의 복잡한 상충 관계를 직관적으로 파악하기 어렵다. 이를 시각화하기 위해 각 모델을 mAP(Y축)와 Latency(X축)를 기준으로 2차원 평면에 점으로 표시한 산점도(Scatter Plot)를 구성할 수 있다.
이 그래프에서 ’파레토 최적 경계(Pareto Front)’는 매우 중요한 개념이다. 파레토 최적 경계는 주어진 모델 집합 내에서, 다른 어떤 모델과 비교해도 속도와 정확도 모든 면에서 열등하지 않은 모델들의 집합을 연결한 선이다. 즉, 이 경계선 위에 있는 모델들은 각자의 트레이드오프 지점에서 가장 효율적인 선택지를 나타낸다. 이 경계선을 기준으로 모델들을 세 그룹으로 분류하여 그 특성을 분석할 수 있다.
- 고속/저지연 그룹 (High-Speed/Low-Latency): 파레토 최적 경계의 우하단에 위치한다. YOLOv8n, YOLOv8s, 그리고 경량 백본을 사용한 SSD 모델들이 이 그룹을 형성한다. 이 모델들은 10ms 미만의 매우 낮은 지연 시간을 특징으로 하며, 절대적인 정확도는 다소 낮지만(mAP 35-45), 실시간 처리가 필수적인 애플리케이션에서 최우선적으로 고려되어야 한다.
- 균형 그룹 (Balanced): 파레토 최적 경계의 중앙부에 위치하며, 가장 치열한 경쟁이 일어나는 구간이다. YOLOv8m, YOLOv8l, 그리고 최신 Transformer 기반 실시간 모델인 RT-DETR-L 등이 이 그룹에 속한다. 이들은 준수한 정확도(mAP 50-53)와 합리적인 속도(Latency 5-10ms) 사이에서 최적의 균형을 제공한다. 대부분의 산업 현장에서 가장 실용적인 선택지가 될 가능성이 높은 모델들이다.
- 고정확도 그룹 (High-Accuracy): 파레토 최적 경계의 좌상단에 위치한다. YOLOv8x와 같은 대형 1-stage 모델과, 전통적인 강자인 Faster R-CNN, 그리고 대형 백본을 사용하는 DETR 변종 모델들이 이 그룹을 형성한다. 이들은 10ms를 초과하는 비교적 긴 처리 시간을 갖지만, 최고의 정확도(mAP 53 이상)를 보장한다. 속도보다 정확성이 조금이라도 더 중요한 비실시간 분석이나 안전 필수(safety-critical) 시스템에 적합하다.
이러한 파레토 최적 분석은 “어떤 모델이 최고인가?“라는 질문이 무의미함을 명확히 보여준다. 대신, “우리의 애플리케이션이 요구하는 Latency 예산과 최소 mAP는 얼마인가?“라는 질문을 통해, 이 그래프 상에서 우리가 목표로 해야 할 영역을 먼저 정의하고, 그 영역 내에서 파레토 최적 경계에 가장 가까운 모델을 선택하는 것이 합리적인 의사결정 과정임을 시사한다.
3. 적용 사례 기반 최적화 전략
객체 탐지 모델의 이론적 분석과 정량적 벤치마크는 모델 선택의 기초를 제공하지만, 실제 산업 현장의 복잡한 요구사항을 반영하기에는 부족하다. 최적의 모델은 진공 상태에서 결정되는 것이 아니라, 특정 적용 사례(Use-Case)의 맥락 속에서 그 가치가 정의된다. 애플리케이션의 ’실패’가 무엇으로 정의되는지에 따라 우선순위가 되는 성능 지표가 달라지며, 이는 곧 최적의 아키텍처 선택으로 이어진다. 본 장에서는 ‘실시간성’, ‘정확성’, ’자원 제약’이라는 세 가지 대표적인 시나리오를 통해, 문제의 요구사항이 어떻게 모델 선택 전략을 결정하는지 심층적으로 분석한다.
3.1 사례 1: 실시간성 극대화 (Real-time Critical Applications)
3.1.1 요구사항 분석 및 지연의 치명성
사람을 추적하는 자율 비행 드론이나 실시간 CCTV 이상행동 감지 시스템과 같은 애플리케이션의 성패는 ’반응 시간’에 달려있다.40 이러한 시스템에서 실패는 ’부정확한 탐지’가 아니라 ’너무 늦은 탐지’로 정의된다. 여기서 핵심 지표는 FPS(Frames Per Second)와 지연 시간(Latency)이다. FPS는 시스템이 1초에 얼마나 많은 정보를 처리할 수 있는지를 나타내며, Latency는 단일 정보(프레임)를 처리하는 데 걸리는 시간을 의미한다. 이 두 지표는 시스템의 반응성과 직결된다.
지연으로 인해 발생할 수 있는 문제 시나리오는 치명적이다.
- 드론 추적 시나리오: 드론이 특정 인물을 추적하는 임무를 수행 중이라고 가정하자. 만약 객체 탐지 모델의 Latency가 500ms(0.5초)라면, 드론은 항상 0.5초 전의 과거 위치를 기반으로 움직이게 된다. 대상이 빠르게 방향을 전환하거나 장애물 뒤로 숨는 경우, 이 0.5초의 지연은 추적 실패로 직결된다. 더 나아가, 드론이 자율적으로 장애물을 회피하며 비행하는 경우, 전방의 장애물 탐지가 단 100ms만 늦어도 물리적 충돌을 피하지 못할 수 있다.42 이 경우, 지연은 단순한 성능 저하가 아니라 시스템의 파괴를 의미한다.
- CCTV 이상행동 감지 시나리오: 공공장소에서 폭력 행위를 감지하는 시스템을 생각해보자. 폭행 사건은 수 초 내에 심각한 피해를 유발할 수 있다. 만약 시스템이 1초의 처리 지연을 가진다면, 관제 센터에 경보가 울렸을 때는 이미 돌이킬 수 없는 피해가 발생한 후일 수 있다.43 반면, 수십 밀리초(ms) 단위의 낮은 Latency를 가진 시스템은 사건 발생 즉시 경보를 울려 신속한 초동 대응을 가능하게 한다. 여기서 지연 시간의 단축은 잠재적 피해를 예방하는 기회와 같다.
이처럼 실시간성이 극대화되어야 하는 분야에서는 mAP가 다소 낮더라도 결정적인 순간의 정보를 놓치지 않는 것이 훨씬 중요하다. 99%의 정확도로 1초 뒤에 결과를 알려주는 모델보다, 90%의 정확도로 30ms 안에 결과를 알려주는 모델이 압도적으로 더 유용하다.
3.1.2 최적 모델 선택 및 근거
이러한 시나리오에 가장 적합한 모델은 앞서 분석한 파레토 최적 경계(Pareto Front)의 ’고속/저지연 그룹’에 속하는 모델들이다. 특히 YOLO 계열의 경량 모델들은 이러한 요구사항을 충족시키기 위해 설계되었다.
-
모델 후보:
YOLOv8n또는YOLOv8s가 최우선 고려 대상이다. 이 모델들은 각각 3.2M, 11.2M의 적은 파라미터 수를 가지며, T4 GPU 기준으로 2-3ms 수준의 매우 낮은 Latency를 자랑한다.33 이 정도 속도는 30 FPS를 훌쩍 뛰어넘어 100 FPS 이상의 실시간 처리를 가능하게 하여, 드론이나 CCTV와 같은 애플리케이션에 충분한 반응 속도를 제공한다. -
선택의 근거:
yolov8x와 같은 대형 모델은 mAP가 53.9로yolov8n(37.3)보다 훨씬 높지만, Latency 또한 12.5ms로 6배 가까이 길다.46 실시간 추적 시스템에서 10ms의 추가 지연은 추적 안정성에 큰 영향을 미칠 수 있다. 따라서, 약간의 정확도를 희생하더라도 압도적인 속도 이점을 제공하는 경량 모델을 선택하는 것이 합리적이다. 만약
yolov8n의 정확도가 최소 요구사항에 미치지 못한다면, yolov8s를 차선책으로 고려할 수 있다. 이처럼 실시간 애플리케이션에서는 모델 파라미터(예: n vs. s vs. m)를 조정하는 것이 속도와 정확도를 튜닝하는 가장 직접적인 수단이 된다.
3.2 사례 2: 정확성 극대화 (Accuracy Critical Applications)
3.2.1 요구사항 분석 및 오류의 비대칭적 비용
농작물 이미지 분석을 통한 정밀 등급 분류나, 의료 영상(CT, MRI) 내 미세 병변 탐지와 같은 분야에서는 모델의 판단 하나하나가 막대한 경제적 가치나 인간의 생명과 직결된다.47 이러한 애플리케이션에서 실패는 ’느린 탐지’가 아니라 ’잘못된 탐지’로 정의된다. 따라서 처리 속도가 다소 희생되더라도, 탐지의 정확성을 극대화하는 것이 시스템의 최우선 목표가 된다.
이 분야의 핵심적인 특징은 오탐지(False Positive, FP)와 미탐지(False Negative, FN)의 비용이 비대칭적이라는 점이다.
- 미탐지(False Negative)가 더 치명적인 경우: 의료 영상 진단이 대표적인 예다. 시스템이 실제 존재하는 암 병변을 ’없다’고 판단하는 경우(FN), 환자는 적절한 치료 시기를 놓쳐 생명이 위독해질 수 있다.49 반면, 정상 조직을 ’암’으로 잘못 판단하는 경우(FP), 환자는 추가적인 검사를 통해 최종적으로 정상 판정을 받을 수 있다. 물론 이 과정에서 심리적 불안감과 불필요한 의료 비용이 발생하지만, 미탐지가 초래하는 결과에 비하면 그 심각성이 현저히 낮다.51 따라서 이러한 시스템은 단 하나의 실제 병변도 놓치지 않는 것, 즉 재현율(Recall)을 극대화하는 것을 목표로 해야 한다.
- 오탐지(False Positive)가 더 치명적인 경우: 최고 등급의 농산물을 선별하는 시스템을 가정해보자. 시스템이 최고 등급의 과일을 ’불량’으로 잘못 판단하는 경우(FP), 멀쩡한 상품이 폐기되거나 낮은 등급으로 팔려 직접적인 경제적 손실이 발생한다. 반대로, 불량 과일을 ’최고 등급’으로 잘못 판단하는 경우(FN), 해당 제품을 구매한 소비자의 신뢰가 하락하는 간접적이고 장기적인 손실이 발생한다. 단기적인 수익을 극대화하는 것이 목표라면, 오탐지를 최소화하는 것, 즉 정밀도(Precision)를 높이는 것이 더 중요할 수 있다.52
이처럼 오류의 비용이 비대칭적인 상황에서는 Precision과 Recall의 조화 평균인 F1-score나, 이 둘을 종합적으로 평가하는 mAP만으로는 모델의 성능을 온전히 평가하기 어렵다. 반드시 Precision과 Recall 값을 개별적으로 확인하고, Precision-Recall Curve를 분석하여 애플리케이션의 목표에 맞는 운영점(operating point), 즉 결정 임계값(confidence threshold)을 신중하게 선택해야 한다.53
3.2.2 최적 모델 선택 및 기술적 타당성
정확성 극대화가 목표인 시나리오에서는 파레토 최적 경계의 ’고정확도 그룹’에 속하는 모델들이 우선적으로 고려되어야 한다. 속도가 다소 느리더라도, 복잡하고 정교한 아키텍처를 통해 최고의 정확도를 보장하는 모델이 필요하다.
- 모델 후보: 2-stage detector인 Faster R-CNN (특히 ResNet-101이나 Res2Net과 같은 대형 백본 사용) 또는 Transformer 기반 모델인 DETR 및 그 변종들(예: Deformable DETR)이 가장 적합한 후보다.56
- 기술적 타당성:
- 정교한 위치 특정 능력: 2-stage detector는 RPN을 통해 유망한 후보 영역을 먼저 선별하고, 그 영역에 대해서만 집중적으로 특징을 추출하고 위치를 보정한다. 이 ‘지역적 정밀화’ 과정은 미세한 병변이나 농작물의 작은 흠집처럼 작고 미묘한 특징을 정확하게 잡아내는 데 매우 효과적이다.29 1-stage detector가 고정된 그리드 위에서 예측하는 것보다 훨씬 더 유연하고 정밀한 위치 특정이 가능하다.
- 전역적 문맥 이해 능력: DETR과 같은 Transformer 기반 모델은 Self-Attention 메커니즘을 통해 이미지 전체의 전역적인 문맥(global context)을 파악하는 데 강점을 보인다.57 이는 특정 병변이 주변 조직과 어떤 관계를 맺고 있는지, 또는 특정 농작물의 질병 패턴이 잎 전체에 어떻게 분포하는지를 종합적으로 판단하는 데 유리하게 작용할 수 있다. 복잡한 배경 속에서 객체를 탐지해야 할 때, 이러한 전역적 이해는 오탐지를 줄이는 데 도움을 준다.
- End-to-End 학습의 이점: DETR은 NMS와 같은 수작업으로 설계된 후처리 과정 없이 End-to-End로 학습이 가능하다.57 이는 전체 파이프라인이 탐지 성능이라는 단일 목표를 향해 최적화될 수 있음을 의미하며, 잠재적으로 더 높은 성능을 이끌어낼 수 있다.
결론적으로, 처리 시간이 수백 ms에서 수 초가 걸리더라도, 단 하나의 오류가 치명적인 결과를 초래하는 애플리케이션에서는 YOLO와 같은 속도 중심의 모델 대신, 정확성을 위해 설계된 2-stage detector나 Transformer 기반 모델을 선택하는 것이 기술적으로 완벽하게 정당화된다.
3.3 사례 3: 자원 제약 환경 (Resource-Constrained Environments)
3.3.1 요구사항 분석 및 상충 관계의 다변화
임베디드 시스템, Edge AI 디바이스(예: 스마트폰, 소형 로봇, 산업용 IoT 센서)는 클라우드 서버와는 비교할 수 없을 정도로 제한된 자원 위에서 동작한다.61 이러한 환경의 제약 조건은 단순히 연산 속도에만 국한되지 않는다.
- 모델 크기 (Model Size): 디바이스의 플래시 메모리나 저장 공간은 한정되어 있으므로, 수백 MB에 달하는 대형 모델을 탑재하기 어렵다.63
- 메모리 사용량 (RAM): 추론 시 모델 가중치와 중간 계산 결과를 저장하기 위한 RAM 용량이 부족할 수 있다.
- 연산량 (FLOPs): 디바이스의 프로세서(CPU, GPU, NPU)가 처리할 수 있는 초당 연산 횟수(TOPS/GFLOPs)에 한계가 있다.63
- 전력 소모 (Power Consumption): 배터리로 동작하는 디바이스의 경우, 전력 소모가 적은 모델이 장시간 운영에 필수적이다.
이러한 제약 조건들로 인해, Edge AI 환경에서의 모델 선택은 기존의 ’속도-정확도’라는 2차원적 상충 관계가 ’모델 크기’와 ’연산량’이라는 새로운 축이 추가된 다차원 최적화 문제로 확장된다.13 아무리 빠르고 정확한 모델이라도 디바이스에 배포할 수 없다면 무용지물이다. 따라서 모델 선택 전략은 mAP와 FPS뿐만 아니라, 모델의 파라미터 수, 파일 크기, FLOPs를 핵심적인 평가 기준으로 포함하도록 근본적으로 수정되어야 한다.
3.3.2 추론 최적화 기술의 역할과 영향
자원 제약 환경의 한계를 극복하기 위해, 모델을 특정 하드웨어에 맞게 최적화하고 경량화하는 기술들이 핵심적인 역할을 수행한다. 이러한 기술들은 모델 선택의 ‘후처리’ 단계가 아니라, 어떤 모델을 선택할지를 결정하는 ’전략적 변수’로 고려되어야 한다. 최적화 가능성을 미리 염두에 두면, 원본 상태에서는 기준 미달이었던 모델이 최적화 후에는 최상의 선택지가 될 수도 있기 때문이다.
- 하드웨어 가속 라이브러리 (Hardware Acceleration Libraries):
- NVIDIA TensorRT: NVIDIA GPU 및 Jetson과 같은 엣지 디바이스를 위한 추론 최적화기이다. TensorRT는 학습된 모델의 연산 그래프를 분석하여, 여러 개의 레이어를 하나의 최적화된 커널로 융합(Layer Fusion)하거나, 하드웨어에 최적화된 연산 순서로 재배치한다. 또한, FP32(32비트 부동소수점) 연산을 더 빠른 FP16이나 INT8(8비트 정수) 연산으로 대체하여 추론 속도를 극적으로 향상시킨다.66
- Intel OpenVINO: Intel의 CPU, 내장 GPU, VPU 등을 위한 툴킷이다. TensorRT와 유사하게 모델 최적화, 추론 엔진, 배포 도구를 제공하여 Intel 하드웨어에서 딥러닝 모델의 성능을 극대화한다.70 특히 YOLOv8과 같은 모델을 OpenVINO로 최적화할 경우, 원본 PyTorch 모델 대비 상당한 속도 향상을 기대할 수 있다.72
- 모델 경량화 기법 (Model Compression Techniques):
- 양자화 (Quantization): 모델의 가중치와 활성화 값을 표현하는 데 사용되는 비트 수를 줄이는 기술이다. 예를 들어, 32비트 부동소수점(FP32)을 8비트 정수(INT8)로 변환하면, 모델 크기는 약 4분의 1로 줄어들고, 메모리 대역폭 요구량도 감소하며, INT8 연산을 지원하는 하드웨어에서는 연산 속도가 크게 향상된다. 이 과정에서 약간의 정보 손실로 인해 정확도가 소폭 하락할 수 있으나, Post-Training Quantization(PTQ)이나 Quantization-Aware Training(QAT)과 같은 기법을 통해 정확도 하락을 최소화할 수 있다.69
- 가지치기 (Pruning): 인간의 뇌가 시냅스를 정리하듯, 모델의 성능에 거의 영향을 주지 않는 불필요한 가중치나 뉴런, 채널 등을 제거하는 기술이다.76 이를 통해 모델의 파라미터 수와 연산량을 줄여 더 작고 빠른 모델을 만들 수 있다. 가지치기 후에는 일반적으로 미세 조정(fine-tuning) 과정을 거쳐 성능 저하를 복구한다.75
이러한 최적화 기술들은 기존의 속도-정확도 파레토 최적 경계에 있는 모델들을 ‘더 빠르고, 더 가벼운’ 위치로 이동시키는 효과를 가져온다. 즉, 특정 하드웨어와 최적화 파이프라인에 대한 ’새로운 파레토 최적 경계’를 생성하는 것이다. 예를 들어, 원본 YOLOv8s 모델이 특정 엣지 디바이스의 Latency 요구사항을 만족하지 못하더라도, TensorRT INT8 양자화를 적용했을 때의 예상 성능이 요구사항을 충족하고 YOLOv8n보다 높은 정확도를 보인다면, YOLOv8s를 선택하는 것이 더 나은 전략이 될 수 있다. 따라서 자원 제약 환경에서의 모델 선택은, 단순히 원본 모델의 벤치마크를 비교하는 것을 넘어, ’{모델 아키텍처, 타겟 하드웨어, 적용 가능한 최적화 기법}’의 최적 조합을 찾는 시스템 수준의 종합적인 의사결정이 되어야 한다.
4. 결론: 체계적 의사결정 프레임워크와 미래 전망
지금까지의 심층 분석을 통해 객체 탐지 모델 선택이 단일 지표에 의한 서열화가 아닌, 다차원적인 상충 관계 속에서 문제의 본질에 가장 부합하는 균형점을 찾는 과정임을 확인했다. 본 장에서는 이러한 분석 결과를 종합하여, 실제 프로젝트 기획자와 개발자가 현장에서 활용할 수 있는 실용적이고 체계적인 의사결정 프레임워크를 제시하고, 기술의 미래 발전 방향을 조망하고자 한다.
4.1 종합 의사결정 프레임워크
최적의 객체 탐지 모델을 선택하는 과정은 정해진 답을 찾는 것이 아니라, 올바른 질문을 순서대로 던져가며 선택의 폭을 좁혀나가는 여정이다. 아래에 제시된 플로차트와 체크리스트는 이러한 과정을 구조화한 것으로, 기술의 변화와 무관하게 유효한 ’사고의 틀’을 제공하는 것을 목표로 한다. 이는 특정 모델을 추천하는 정적인 ’답’이 아니라, 어떤 새로운 모델이 등장하더라도 사용자가 스스로 평가하고 최적의 해답을 찾아갈 수 있도록 돕는 동적인 ’질문’의 집합이다.77
의사결정 체크리스트:
프로젝트 초기 단계에서 아래 질문들에 대해 명확하고 정량적인 답변을 준비하는 과정은 성공적인 모델 선택의 핵심이다.
- 성능 요구사항 (Performance Requirements)
- 실시간 처리: 시스템이 실시간으로 운영되어야 하는가? 그렇다면, 허용 가능한 최대 지연 시간(Latency)은 몇 밀리초(ms)이며, 목표 초당 프레임 수(FPS)는 얼마인가?
- 정확도 기준: 모델의 정확도를 평가할 핵심 지표는 무엇인가? (mAP, Precision, Recall, F1-Score 등)
- 오류 비용 분석: 오탐지(False Positive)와 미탐지(False Negative) 중 비즈니스 또는 안전에 더 치명적인 영향을 미치는 것은 무엇인가? 각 오류의 비용을 정량화할 수 있는가?
- 데이터 및 객체 특성 (Data & Object Characteristics)
- 객체 크기: 주로 탐지해야 할 객체들의 평균적인 크기는 어떠한가? 이미지 전체에서 차지하는 비율이 매우 작은 ’소형 객체’가 다수 포함되어 있는가?
- 객체 밀집도: 이미지 내에 객체들이 서로 겹치거나 밀집하여 나타나는 경우가 빈번한가?
- 데이터셋 규모: 모델 학습에 사용할 수 있는 데이터의 양은 충분한가? 데이터 라벨링 품질은 신뢰할 수 있는 수준인가?
- 하드웨어 및 배포 환경 (Hardware & Deployment Environment)
- 타겟 하드웨어: 모델이 최종적으로 배포될 하드웨어는 무엇인가? (클라우드 GPU 서버, 엣지 디바이스, 모바일 등)
- 자원 제약: 타겟 하드웨어의 연산 능력(GFLOPs/TOPS), 메모리(RAM), 저장 공간(Storage) 제약은 어느 정도인가?
- 추론 최적화: TensorRT, OpenVINO 등 사용 가능한 추론 최적화 도구가 있는가? 이를 적용했을 때 예상되는 성능 향상치는 어느 정도인가?
- 개발 및 유지보수 (Development & Maintenance)
- 기술 스택: 개발팀이 가장 익숙하게 다루는 딥러닝 프레임워크는 무엇인가? (PyTorch, TensorFlow 등)
- 커뮤니티 및 생태계: 후보 모델의 커뮤니티는 활성화되어 있는가? 관련 문서, 튜토리얼, 사전 학습된 가중치를 쉽게 얻을 수 있는가?
- 모델 확장성: 향후 새로운 객체 클래스를 추가하거나 다른 도메인으로 모델을 확장할 계획이 있는가? 모델의 전이 학습(transfer learning) 용이성은 어떠한가?
이 플로차트와 체크리스트를 통해 후보 모델군을 2~3개로 압축한 후에는, 반드시 실제 운영 환경과 유사한 데이터의 일부를 사용하여 직접 벤치마킹을 수행해야 한다.9 표준 데이터셋의 벤치마크는 훌륭한 참고 자료이지만, 최종 결정은 자신의 데이터와 문제에 대한 실제 성능을 기반으로 내려져야 한다.
4.2 미래 기술 전망: 속도와 정확도의 경계를 허물다
객체 탐지 기술의 역사는 속도와 정확도라는 두 축 사이의 끊임없는 줄다리기였지만, 최신 연구 동향은 이 상충 관계의 패러다임 자체를 바꾸려는 시도들로 가득 차 있다. 미래에는 두 지표의 경계가 점차 허물어지며, 모델 선택의 기준 또한 새로운 차원으로 확장될 것이다.
4.2.1 현재의 돌파구: 상충 관계 완화
- End-to-End 모델의 부상: 과거 모델들은 앵커 박스 생성, NMS(Non-Maximum Suppression) 후처리 등 사람이 직접 설계한 복잡한 구성 요소에 의존했다. 그러나 DETR(DEtection TRansformer)은 객체 탐지를 ‘집합 예측(set prediction)’ 문제로 재정의하여, 이러한 중간 단계를 모두 제거하고 입력 이미지에서 최종 객체 집합까지 한 번에 예측하는 진정한 End-to-End 파이프라인을 구현했다.57 이는 복잡성을 줄이고 전체 프로세스가 단일 목표를 향해 최적화되도록 하여, 성능 향상의 새로운 가능성을 열었다.81
- NMS-Free 아키텍처의 확산: NMS는 중복된 탐지 박스를 제거하는 필수적인 후처리 단계이지만, 추론 시간에 상당한 병목을 유발한다. YOLOv10은 학습 과정에서 중복 예측을 억제하도록 설계하여, 추론 시 NMS가 필요 없는 아키텍처를 제안했다.83 이는 1-stage detector의 속도 이점을 극대화하여 진정한 의미의 실시간 End-to-End 탐지를 가능하게 한다.
- Vision Transformer (ViT)의 잠재력: CNN이 이미지의 지역적(local) 패턴을 포착하는 데 강점을 보인다면, ViT는 Self-Attention 메커니즘을 통해 이미지 전체 픽셀 간의 장거리 의존성, 즉 전역적(global) 문맥을 효과적으로 모델링한다.59 초기 ViT 기반 탐지 모델은 학습이 어렵고 속도가 느렸지만, RT-DETR과 같은 실시간 모델의 등장은 ViT가 더 이상 고비용/고정확도 모델의 전유물이 아님을 증명했다.86
4.2.2 미래의 기술적 돌파구 예측
속도와 정확도의 상충 관계는 물리적, 정보 이론적 한계로 인해 완전히 사라지지는 않겠지만 11, 그 경계는 다음과 같은 기술적 돌파구를 통해 지금보다 훨씬 더 희미해질 것이다.
- 차세대 하이브리드 아키텍처: CNN의 효율적인 저수준 특징 추출 능력과 Transformer의 강력한 고수준 의미 관계 모델링 능력을 결합한 하이브리드 아키텍처가 주류가 될 것이다.59 이를 통해 두 아키텍처의 장점만을 취합하여, 적은 연산량으로도 높은 정확도를 달성하는 새로운 파레토 최적 경계가 형성될 것이다.
- 신경망-하드웨어 공동 설계 (Co-design): 현재는 범용 하드웨어 위에서 소프트웨어(모델)를 최적화하는 방식이지만, 미래에는 특정 AI 연산(예: Attention)에 최적화된 뉴로모픽 칩이나 맞춤형 AI 가속기가 보편화될 것이다. 모델 아키텍처와 하드웨어 아키텍처가 처음부터 함께 설계되어, 상충 관계 곡선 자체를 근본적으로 개선하는 혁신이 이루어질 것이다.
- 데이터 효율성과 적응성의 부상: 미래의 모델 경쟁력은 단순히 ’얼마나 빠르고 정확한가’에만 머무르지 않을 것이다. 대신, ’얼마나 적은 데이터로 학습할 수 있는가(데이터 효율성)’와 ’얼마나 쉽게 새로운 환경과 작업에 적응할 수 있는가(적응성)’가 핵심적인 평가 축으로 부상할 것이다. Few-shot 89, Zero-shot 90, Self-supervised learning 91과 같은 기법들이 발전함에 따라, 모델의 가치는 ’사전 학습된 정적 성능’에서 ’배포 후 운영 및 개선의 동적 효율성’으로 이동할 것이다. 미래의 의사결정 프레임워크에는 “새로운 클래스를 추가하는 데 얼마나 많은 데이터와 재학습 비용이 필요한가?“와 같은 ’운영 효율성’에 대한 질문이 반드시 포함될 것이다.
결론적으로, 객체 탐지 기술은 속도와 정확도라는 전통적인 상충 관계를 극복하기 위해 아키텍처, 하드웨어, 학습 방법론 모든 면에서 빠르게 진화하고 있다. 성공적인 기술 도입을 위해서는 이러한 거시적인 흐름을 이해하고, 제시된 의사결정 프레임워크를 바탕으로 자신의 문제에 가장 적합한 ’현재의 최적해’를 끊임없이 탐색하는 체계적인 접근이 요구된다.
5. 참고 자료
- YOLO model for real-time object detection: A full guide | Viam, https://www.viam.com/post/guide-yolo-model-real-time-object-detection-with-examples
- YOLO Object Detection for Accurate & Efficient Recognition - Labellerr, https://www.labellerr.com/blog/why-is-the-yolo-algorithm-important/
- You Only Look Once (YOLO): the best model for Ai-integrated video analytics?, https://www.i3international.com/resources/media/yolo-the-best-model-for-ai-integrated-video-analytics
- What is YOLO? The Ultimate Guide [2025] - Roboflow Blog, https://blog.roboflow.com/guide-to-yolo-models/
- YOLO Object Detection Explained: A Beginner’s Guide - DataCamp, https://www.datacamp.com/blog/yolo-object-detection-explained
- YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions - arXiv, https://arxiv.org/html/2411.00201v2
- Evolution of YOLO: A Timeline of Versions and Advancements in Object Detection, https://yolovx.com/evolution-of-yolo-a-timeline-of-versions-and-advancements-in-object-detection/
- YOLOv8 vs YOLOv5: A Detailed Comparison - Ultralytics YOLO Docs, https://docs.ultralytics.com/compare/yolov8-vs-yolov5/
- Choosing the right model for object detection | RoadSignDetection - Wandb, https://wandb.ai/meghal/RoadSignDetection/reports/Choosing-the-right-model-for-object-detection–VmlldzoxNzA2NDA5
- How To Choose Best ML Model For Your Usecase? - Analytics Vidhya, https://www.analyticsvidhya.com/blog/2024/11/how-to-choose-best-ml-model/
- Benchmarking the speed–accuracy tradeoff in object recognition by humans and neural networks | JOV | ARVO Journals, https://jov.arvojournals.org/article.aspx?articleid=2802416
- [1611.10012] Speed/accuracy trade-offs for modern convolutional object detectors - arXiv, https://arxiv.org/abs/1611.10012
- What to Think About When Choosing Model Sizes - Roboflow Blog, https://blog.roboflow.com/computer-vision-model-tradeoff/
- Object Detection Models: Balancing Speed, Accuracy and Efficiency - 2025 Summit, https://embeddedvisionsummit.com/2025/session/object-detection-models-balancing-speed-accuracy-and-efficiency/
- Speed/Accuracy Trade-Offs for Modern Convolutional Object Detectors - CVF Open Access, https://openaccess.thecvf.com/content_cvpr_2017/papers/Huang_SpeedAccuracy_Trade-Offs_for_CVPR_2017_paper.pdf
- Model Selection Techniques: How To Select A Suitable Machine Learning Model? - Censius, https://censius.ai/blogs/machine-learning-model-selection-techniques
- Object Detection Models - GeeksforGeeks, https://www.geeksforgeeks.org/computer-vision/object-detection-models/
- Learning and Example Selection for Object and Pattern Detection - DSpace@MIT, https://dspace.mit.edu/bitstream/handle/1721.1/6774/AITR-1572.pdf
- Which is more important: model performance or model accuracy? | Fiddler AI, https://www.fiddler.ai/model-accuracy-vs-model-performance/which-is-more-important-model-performance-or-model-accuracy
- One-Stage Object Detectors Explained - Ultralytics, https://www.ultralytics.com/glossary/one-stage-object-detectors
- YOLO Vs Faster RCNN for Object Detection and Recognition - International Research Journal of Multidisciplinary Scope (IRJMS), https://www.irjms.com/wp-content/uploads/2025/07/Manuscript_IRJMS_04661_WS.pdf
- Single Stage Detector vs 2 Stage Detector | by Abhishek Jain | Medium, https://medium.com/@abhishekjainindore24/single-stage-detector-vs-2-stage-detector-3e540ea81213
- YOLO Algorithm for Object Detection Explained [+Examples] - V7 Labs, https://www.v7labs.com/blog/yolo-object-detection
- Comparative Analysis of YOLO and Faster R-CNN Models for Detecting Traffic Object - The Science and Information (SAI) Organization, https://thesai.org/Downloads/Volume16No3/Paper_42-Comparative_Analysis_of_YOLO_and_Faster_R_CNN_Models.pdf
- Comparative Analysis of Two-Stage and One-Stage Object Detection Models - SciTePress, https://www.scitepress.org/Papers/2024/135159/135159.pdf
- One stage vs two stage object detection - Stack Overflow, https://stackoverflow.com/questions/65942471/one-stage-vs-two-stage-object-detection
- Faster RCNN in 2025: How it works and why it’s still the benchmark for Object Detection, https://www.thinkautonomous.ai/blog/faster-rcnn/
- MimicDet: Bridging the Gap Between One-Stage and Two-Stage Object Detection - European Computer Vision Association, https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123590528.pdf
- How Two-stage Object Detection Enhances Machine Vision Applications - UnitX, https://www.unitxlabs.com/resources/two-stage-object-detection-machine-vision/
- One-Stage vs. Two-Stage Detectors in Object Detection: Unveiling the Performance Trade-Offs - LakshmiShreeA1’s blog, https://lakshmishreea1.hashnode.dev/one-stage-vs-two-stage-detectors-in-object-detection-unveiling-the-performance-trade-offs
- DEtection TRansformer (DETR) vs. YOLO for object detection. | by Fahim Rustamy, PhD, https://medium.com/@faheemrustamy/detection-transformer-detr-vs-yolo-for-object-detection-baeb3c50bc3
- A Comparative Study of YOLO, SSD, Faster R-CNN, and More for Optimized Eye-Gaze Writing - MDPI, https://www.mdpi.com/2413-4155/7/2/47
- YOLOv8 : Comprehensive Guide to State of the Art Object Detection - LearnOpenCV, https://learnopencv.com/ultralytics-yolov8/
- YOLOv8 vs Faster R-CNN: A Comparative Analysis - Keylabs, https://keylabs.ai/blog/yolov8-vs-faster-r-cnn-a-comparative-analysis/
- YOLOv9: A Leap Forward in Object Detection Technology - Ultralytics Docs, https://docs.ultralytics.com/models/yolov9/
- Comparison of performance by previous YOLO models and YOLOv5_Ours. - ResearchGate, https://www.researchgate.net/figure/Comparison-of-performance-by-previous-YOLO-models-and-YOLOv5-Ours_tbl3_362128742
- A Study on Object Detection Performance of YOLOv4 for Autonomous Driving of Tram, https://www.mdpi.com/1424-8220/22/22/9026
- Real-Time Object Detection on COCO (Common Objects in Context), https://paperswithcode.com/sota/real-time-object-detection-on-coco?p=objects-as-points
- Comparative Analysis of CNN-Based Object Detection Models: Faster R-CNN, SSD, and YOLO - ResearchGate, https://www.researchgate.net/publication/391692075_Comparative_Analysis_of_CNN-Based_Object_Detection_Models_Faster_R-CNN_SSD_and_YOLO
- Real-time Object Detection And Tracking On Drones - PDXScholar, https://pdxscholar.library.pdx.edu/cgi/viewcontent.cgi?article=1025&context=mcecs_mentoring
- Why FPS Matters: Computer Vision Frame Rate Guide - Ultralytics, https://www.ultralytics.com/blog/understanding-the-role-of-fps-in-computer-vision
- [1904.02024] Super accurate low latency object detection on a surveillance UAV - ar5iv, https://ar5iv.labs.arxiv.org/html/1904.02024
- Real-Time Anomaly Detection in Video Surveillance With Machine Learning - Fora Soft, https://www.forasoft.com/blog/article/real-time-anomaly-detection-video-surveillance
- A Hybrid Approach to Improve the Video Anomaly Detection Performance of Pixel- and Frame-Based Techniques Using Machine Learning Algorithms - MDPI, https://www.mdpi.com/2079-3197/12/2/19
- YOLOv8 Nano vs. YOLOv8 xLarge - Roboflow, https://roboflow.com/compare-model-sizes/yolov8-nano-vs-yolov8-xlarge
- Relation between the YOLOv8n, YOLOv8s, YOLOv8m, YOLOv8l, and YOLOv8x model [65]. - ResearchGate, https://www.researchgate.net/figure/Relation-between-the-YOLOv8n-YOLOv8s-YOLOv8m-YOLOv8l-and-YOLOv8x-model-65_tbl1_380749139
- Machine Learning Models for Detection and Prediction of Crop Diseases : A Review - iarjset, https://iarjset.com/wp-content/uploads/2024/05/IARJSET.2024.11547.pdf
- Two-Stage Object Detectors Explained - Ultralytics, https://www.ultralytics.com/glossary/two-stage-object-detectors
- False positive or false negative is more dangerous in medical image classification??, https://www.researchgate.net/post/False-positive-or-false-negative-is-more-dangerous-in-medical-image-classification
- The Confusion Matrix: False Positives and False Negatives in AI - T2D2, https://t2d2.ai/blog/the-confusion-matrix-false-positives-and-false-negatives-in-ai
- Zero False Positives in Deep Learning: An Achievable Goal—But One That Could Easily Backfire - Scylla AI, https://www.scylla.ai/zero-false-positives-in-deep-learning-an-achievable-goal%E2%80%94but-one-that-could-easily-backfire/
- Comparative Study of YOLOv8 and Faster R-CNN for Crop Disease Detection - IJIRT, https://ijirt.org/publishedpaper/IJIRT176500_PAPER.pdf
- The Complete Guide to Object Detection Evaluation Metrics: From IoU to mAP and More | by Prathamesh Amrutkar | Medium, https://medium.com/@prathameshamrutkar3/the-complete-guide-to-object-detection-evaluation-metrics-from-iou-to-map-and-more-1a23c0ea3c9d
- Object Detection: Key Metrics for Computer Vision Performance - Label Your Data, https://labelyourdata.com/articles/object-detection-metrics
- Performance Metrics Deep Dive - Ultralytics YOLO Docs, https://docs.ultralytics.com/guides/yolo-performance-metrics/
- On the Performance of One-Stage and Two-Stage Object Detectors in Autonomous Vehicles Using Camera Data - MDPI, https://www.mdpi.com/2072-4292/13/1/89
- Introduction to DETR (Detection Transformers): Everything You Need to Know - Lightly AI, https://www.lightly.ai/blog/detr
- Object Detection in Medical Images Based on Hierarchical Transformer and Mask Mechanism - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC9371842/
- CNN vs Vision Transformer (ViT): Which Wins in 2025? | by HIYA CHATTERJEE - Medium, https://medium.com/@hiya31/cnn-vs-vision-transformer-vit-which-wins-in-2025-e1cb2dfcb903
- A Review of DEtection TRansformer: From Basic Architecture to Advanced Developments and Visual Perception Applications - MDPI, https://www.mdpi.com/1424-8220/25/13/3952
- Choosing and Training the Right AI Models for the Edge - SECO, https://usa.seco.com/news/details/choosing-and-training-the-right-ai-models-for-the-edge
- EdgeAI Made Easy: Object Detection - Hackster.io, https://www.hackster.io/mjrobot/edgeai-made-easy-object-detection-31096a
- Understanding Evaluation parameters for Object Detection Models — Flops, FPS, Latency, Params, Size, Memory, Storage, mAP, AP | by Nikita Malviya | Medium, https://medium.com/@nikitamalviya/evaluation-of-object-detection-models-flops-fps-latency-params-size-memory-storage-map-8dc9c7763cfe
- Object Detection on the Edge: Making the Right Choice, https://www.edge-ai-vision.com/2022/10/object-detection-on-the-edge-making-the-right-choice/
- A Comparative Analysis of YOLOv11 Models: Impact of Object Size on Detection Performance - DiVA, http://kth.diva-portal.org/smash/get/diva2:1985752/FULLTEXT01.pdf
- Running object detection on a webcam feed using TensorRT on NVIDIA GPUs in Python. - GitHub, https://github.com/NVIDIA/object-detection-tensorrt-example
- TensorRT - Get Started - NVIDIA Developer, https://developer.nvidia.com/tensorrt-getting-started
- YOLO11 TensorRT Object Detection on Jetson Nano Orin with 100FPS on Live Webcam with Ultralytics - YouTube, https://www.youtube.com/watch?v=nQBOkGR_lg0
- Increase YOLOv4 object detection speed on GPU with TensorRT - Python Lessons, https://pylessons.com/YOLOv4-TF2-TensorRT
- OpenVINO Inference Optimization for YOLO - Ultralytics Docs, https://docs.ultralytics.com/guides/optimizing-openvino-latency-vs-throughput-modes/
- Convert and Optimize YOLOv8 real-time object detection with OpenVINO, https://docs.openvino.ai/2024/notebooks/yolov8-object-detection-with-output.html
- Convert, Export, and Optimize YOLOv8 Model with OpenVINO for Lightning-Fast Speed, https://www.youtube.com/watch?v=sAjR2dlhVfM
- Export and optimize Ultralytics YOLOv8 for inference on Intel OpenVINO, https://www.ultralytics.com/blog/export-and-optimize-a-yolov8-model-for-inference-on-openvino
- [1904.02024] Super accurate low latency object detection on a surveillance UAV - arXiv, https://arxiv.org/abs/1904.02024
- Prune, distill, quantize: what’s the best order? : r/computervision - Reddit, https://www.reddit.com/r/computervision/comments/1i84qw7/prune_distill_quantize_whats_the_best_order/
- Real-Time Object Detection Based on UAV Remote Sensing: A Systematic Literature Review - MDPI, https://www.mdpi.com/2504-446X/7/10/620
- Object Detection - Ultralytics YOLO Docs, https://docs.ultralytics.com/tasks/detect/
- A flow chart of key steps to generate the proposed object detection model. - ResearchGate, https://www.researchgate.net/figure/A-flow-chart-of-key-steps-to-generate-the-proposed-object-detection-model_fig1_262527861
- Object Detection System Data Flow Diagram | PDF | Computer Vision - Scribd, https://www.scribd.com/document/506866034/object-detection-system-data-flow-diagram
- Object Detection with Transformers: A Review - arXiv, https://arxiv.org/html/2306.04670
- A Survey of Dense Object Detection Methods Based on Deep Learning - ResearchGate, https://www.researchgate.net/publication/386217738_A_Survey_of_Dense_Object_Detection_Methods_based_on_deep_learning
- 2D Object Detection: A Survey - MDPI, https://www.mdpi.com/2227-7390/13/6/893
- YOLO11 vs YOLOv10: A Detailed Technical Comparison - Ultralytics Docs, https://docs.ultralytics.com/compare/yolo11-vs-yolov10/
- YOLOv10 vs YOLO11: A Technical Comparison for Object Detection - Ultralytics Docs, https://docs.ultralytics.com/compare/yolov10-vs-yolo11/
- YOLOv10: Real-Time End-to-End Object Detection - Ultralytics YOLO Docs, https://docs.ultralytics.com/models/yolov10/
- Baidu’s RT-DETR: A Vision Transformer-Based Real-Time Object Detector - Ultralytics Docs, https://docs.ultralytics.com/models/rtdetr/
- Transformers in Object Detection: Models, Market Impact, and Real-World Performance in 2025 | by James Fahey | Medium, https://medium.com/@fahey_james/transformers-in-object-detection-models-market-impact-and-real-world-performance-in-2025-efa0b6fe3fa1
- The speed-accuracy tradeoff: history, physiology, methodology, and behavior - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC4052662/
- Beyond Few-shot Object Detection: A Detailed Survey - arXiv, https://arxiv.org/html/2408.14249v1
- A Survey of Zero-Shot Object Detection - SciOpen, https://www.sciopen.com/article/10.26599/BDMA.2024.9020098
- 9 Best Object Detection Models of 2025: Reviewed & Compared - Hitech BPO, https://www.hitechbpo.com/blog/top-object-detection-models.php